在2026年达沃斯论坛上,DeepMind CEO哈萨比斯指出,中国AI技术已接近西方,差距缩小至约6个月。他特别肯定国产模型DeepSeek R1,称其性能令人印象深刻,曾引发硅谷震动。
中国AI模型发展迅速,Deepseek R1等创新引发全球关注。阿里巴巴Qwen模型家族表现突出,中国开放权重AI生态系统规模远超预期,在分发和应用方面已超越美国竞争对手。
圣诞节当天,边缘AI初创公司Liquid AI发布开源模型LFM2-2.6B-Exp,仅26亿参数,却在多项基准测试中表现优异,指令跟随能力甚至超越数百亿参数的DeepSeek R1-0528,被赞为“最强3B级模型”。该模型基于第二代LFM2基础模型,通过纯强化学习实现实验性突破。
Jan团队发布300亿参数多模态大模型Jan-v2-VL-Max,专为长周期、高稳定性自动化任务设计,性能超越谷歌Gemini2.5Pro与DeepSeek R1。该模型重点解决多步任务中的“误差累积”和“失焦”问题,为开源智能体生态提供强大支持。
DeepSeek R1-0528 是一款开源大模型,性能媲美 OpenAI o3 模型。
基于DeepSeek R1和V3模型的浏览器侧边栏AI工具,提供问答、创作、翻译等功能
DeepSeek-V3/R1 推理系统是一个高性能的分布式推理架构,专为大规模 AI 模型优化设计。
一个支持DeepSeek R1的AI驱动研究助手,结合搜索引擎、网络爬虫和大型语言模型进行深度研究。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
nvidia
NVIDIA DeepSeek R1 FP4 v2是基于DeepSeek AI的DeepSeek R1模型进行FP4量化的文本生成模型,采用优化的Transformer架构,可用于商业和非商业用途。该模型通过TensorRT Model Optimizer进行量化,相比FP8版本显著减少了磁盘大小和GPU内存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。通过FP4量化优化,减少了磁盘大小和GPU内存需求,同时保持较高推理效率。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,采用优化的 Transformer 架构,权重和激活值量化为 FP4 数据类型,显著减少磁盘大小和 GPU 内存需求,支持 TensorRT-LLM 推理引擎实现高效推理。
DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本,基于优化的 Transformer 架构的自回归语言模型,可用于商业和非商业用途。
Sci-fi-vy
DeepSeek-R1-0528是DeepSeek R1系列的小版本升级模型,通过增加计算资源和算法优化显著提升了推理深度和能力,在数学、编程等多个基准测试中表现出色。
QuixiAI
DeepSeek-R1-0528-AWQ 是 DeepSeek R1 0528 的 AWQ 量化版本,通过量化技术提升了模型运行效率,修复了代码问题,提供更稳定的服务。
cognitivecomputations
DeepSeek R1 0528的AWQ量化模型,支持使用vLLM在8块80GB GPU上以全上下文长度运行。
DeepSeek-R1-0528是DeepSeek R1模型的小版本升级,通过增加计算资源和算法优化显著提升了推理能力,在数学、编程和通用逻辑等多个基准评估中表现出色。
deepseek-ai
DeepSeek R1模型已完成小幅版本升级,当前版本为DeepSeek-R1-0528。在最新更新中,DeepSeek R1通过增加计算资源投入并在后训练阶段引入算法优化机制,显著提升了其深度推理与推断能力。
ubergarm
DeepSeek - R1T - Chimera是一个高质量的大语言模型,通过ik_llama.cpp提供的先进量化方案,在保持性能的同时显著减少内存占用。
Nexesenex
Hexagon Purple V2是一个基于Smartracks的三级标准合并模型,包含Deepseek Distill R1、Nemotron和Tulu能力,通过多模型合并优化性能。
qihoo360
Tiny-R1-32B-Preview 是一个基于 Deepseek-R1-Distill-Qwen-32B 的推理模型,专注于数学、代码和科学领域,性能接近完整版 R1 模型。
suayptalha
DeepSeek-R1-Distill-Llama-3B 是基于 Llama-3.2-3B 模型,使用 R1-Distill-SFT 数据集对 DeepSeek-R1 进行蒸馏得到的版本,具备文本生成能力。
NVIDIA DeepSeek R1 FP4 模型是 DeepSeek AI 的 DeepSeek R1 模型的量化版本,使用优化 Transformer 架构的自回归语言模型。该模型通过 FP4 量化技术将参数位数从 8 位减少到 4 位,使磁盘大小和 GPU 内存需求减少约 1.6 倍,同时保持较高的精度性能。
DeepSeek R1模型的FP4量化版本,采用优化后的Transformer架构实现高效文本生成
duxx
本模型是基于DeepSeek-R1-Distill-Qwen-1.5B在土耳其语-R1数据集上微调的版本,主要用于土耳其语相关推理任务。
lightblue
这是DeepSeek R1模型的日语版本,专门针对日语推理任务进行微调,能够可靠且准确地以日语响应提示。
DeepSeek R1模型的AWQ量化版本,优化了float16溢出问题,支持高效推理部署
Deepseek R1的MCP服务器实现,支持Node.js环境,提供强大的语言模型推理服务。
Deepseek R1的MCP服务器实现,支持与Claude Desktop集成,提供强大的语言模型推理服务。
一个基于Node.js的Deepseek R1语言模型MCP服务器实现,支持8192令牌上下文窗口,提供稳定的Claude Desktop集成和模型参数配置。
一个利用Deepseek R1模型的思维链进行推理的MCP服务工具,支持在Claude Desktop等客户端中使用。